XxlCrawler实战:从FlightAware抓取ICAO代码
创作时间:
2025-01-21 16:58:20
作者:
@小白创作中心
XxlCrawler实战:从FlightAware抓取ICAO代码
飞机出行是长距离旅行或出差的必备方式,登机牌上包含的重要信息之一就是航空公司的ICAO三字码。本文将介绍如何使用XxlCrawler抓取全球航空公司ICAO三字码,并提供两种不同的数据解析方式。
数据源介绍
目标网站
本文选择从航班追踪网站FlightAware获取实时航班对应的航空公司信息。在浏览器中打开目标网站,点击航空公司列表,可以看到包含航空公司ICAO码和英文名称的页面。
页面渲染结构
通过查看网页的调试信息,可以发现数据渲染的层次结构:从最顶层的pageContainer,到下级的prettyTable,再到表格中的tbody、tr和td。我们需要遍历td元素以获取所需数据。
XxlCrawler信息获取
创建XxlCrawler对象
在进行信息抓取前,需要定义抓取对象:
private static final String GET_ICAO_URL = "https://zh.flightaware.com/live/fleet/";
private static final String USER_AGENT = "Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/102.0.0.0 Safari/537.36";
XxlCrawler crawler = new XxlCrawler.Builder()
.setUrls(GET_ICAO_URL)
.setAllowSpread(false)
.setThreadCount(3)
.setPauseMillis(2000)
.setUserAgent(USER_AGENT)
.setIfPost(false)
.setFailRetryCount(3)
.setPageParser(new PageParser<PageVo>() {
@Override
public void parse(Document html, Element pageVoElement, PageVo pageVo) {
printVo(pageVo);
}
}).build();
这里设置为只爬取目标页面一次,不进行扩散抓取。
定义PageVo对象
PageVo对象用于网页数据的解析:
@PageSelect(cssQuery = ".pageContainer .prettyTable >tbody")
@Data
public static class PageVo {
@PageFieldSelect(cssQuery = ">tr >td:eq(0)")
private List<String> flightsNum;
@PageFieldSelect(cssQuery = ">tr >td:eq(1)")
private List<String> icaoCode;
@PageFieldSelect(cssQuery = ">tr >td:eq(2)")
private List<String> airline;
}
这里定义了三个属性分别保存航班数、ICAO代码和航空公司英文名称。
直接PageVO解析
通过定义PageVO对象,可以实现属性的自助解析:
protected void printVo(PageVo pageVo) {
System.out.println(pageVo);
System.out.println(pageVo.getFlightsNum().size());
System.out.println(pageVo.getFlightsNum());
System.out.println(pageVo.getAirline().size());
System.out.println(pageVo.getAirline());
System.out.println(pageVo.getIcaoCode().size());
System.out.println(pageVo.getIcaoCode());
for (int i = 0; i < pageVo.getFlightsNum().size(); i++) {
System.out.println("航班数:" + pageVo.getFlightsNum().get(i) + "\t ICAO代码:" + pageVo.getIcaoCode().get(i)
+ "\t 航空英文名称:" + pageVo.getAirline().get(i));
}
}
运行代码可以看到相关信息已被成功爬取。
自定义解析
如果单元格较多,可以使用自定义解析模式:
protected void printElementVo(Element pageVoElement) {
List<AirlineVo> airlineList = new ArrayList<>();
for (int i = 0; i < pageVoElement.childrenSize(); i++) {
Element childElement = pageVoElement.child(i);
String flightsNum = childElement.child(0).text();
String icao = childElement.child(1).text();
String airline = childElement.child(2).text();
System.out.println("航班数:" + flightsNum + "\t ICAO代码:" + icao + "\t 航空英文名称:" + airline);
airlineList.add(new AirlineVo(flightsNum, icao, airline));
}
ExcelUtil<AirlineVo> util = new ExcelUtil<>(AirlineVo.class);
util.exportExcel(airlineList, "全球航空公司ICAO代码表-20240514");
}
@Data
@AllArgsConstructor
@NoArgsConstructor
public class AirlineVo {
@Excel(name = "航班数")
private String flightsNum;
@Excel(name = "icao代码")
private String icaoCode;
@Excel(name = "航空公司英文名称")
private String airlineEn;
}
最后将抓取的信息列表保存到Excel表格中。
总结
本文介绍了使用XxlCrawler抓取全球航空公司ICAO三字码的方法,提供了两种数据解析方式,并将结果保存为Excel文件。通过本文,读者可以掌握数据抓取和解析的基本技巧,为数据处理和信息获取提供实用的解决方案。
热门推荐
中华医学会推荐:美林如何正确应对儿童发烧?
孩子发烧焦虑?这些心理护理妙招你get了吗?
儿童发烧护理:这些误区你踩过吗?
长白山:东北亚历史中的圣山传奇
长白山粉雪:滑雪爱好者的天堂!
长白山世界生物圈保护区:守护东北之巅的绿色奇迹
饮食调节与新陈代谢:打造健康身体的关键
有氧运动:激活自噬,加速新陈代谢!
中医三招提升代谢:针灸、艾灸与中药调理的科学解读
找到情绪出口,让心情新陈代谢
事业与爱情:一个经济学视角的分析
职场情侣如何平衡爱情与事业?这份实用指南请收好
衡阳出发,邂逅丹霞:韶关丹霞山自驾游全攻略
以项目化运作引导社会组织服务高质量发展
葡媒:中国传统农业的生态魅力
秋冬喝热水,暖心又暖身!
热水真的能治愈你的肠胃问题吗?
美国《读者文摘》推荐:喝热水的科学健康指南
亚冬会期间,亚布力西站行李存放攻略
春晚收视率创新高:传统与创新的完美融合
北京台春晚热搜爆棚,揭秘微博传播秘籍
《野兽游戏》开播:500万美元大奖引发的争议与期待
隔夜鸡蛋也能变美味?小壁虎教你妙招!
一碗隔夜蛋炒饭,险些夺命!
冰箱冷藏隔夜蛋还能吃吗?
隔夜水煮蛋的正确保存法,你做对了吗?
亚布力滑雪场迎来降雪!南方游客滑雪热情高涨
大S的去世揭示了重要的健康警示
大S不幸去世,遗产如何分配?母亲与丈夫均可能无法分得一分钱
冬季来临!找导游娜娜玩转哈尔滨冰雪节